Install Requirements for AWS SageMaker

Loading Models

Load Utils and data

Embeddings

Load from Drive to save RAM and time

Read the embeddings saved before on Google Drive

word2vec

glove

Word2Vec

Save Embeddings in HDF5

Glove

Save Embeddings in HDF5

Bert

Roberta

Albert

Autoencoder

Partie 1

Classic4

Nous pouvons voir que les classes ne sont pas de la même taille, ce qui rend la mesure de la précision inappropriée pour l'évaluation des classificateurs.

word2vec

Espace Original

En visualisant l'espace en utilisant l'ACP à 2 dimensions, nous pouvons voir que les classes sont difficiles à séparer.

Les résultats ci-dessus montrent que les différentes méthodes de classification utilisées ne sont pas capables de séparer les classes dans leur espace d'origine, car la plupart d'entre elles sont proches de l'estimation aléatoire des étiquettes (ARI proche de 0 ou <0). Il est intéressant de noter que le modèle MMG fait mieux que les autres modèles, mais qu'il n'apporte toujours pas d'amélioration significative par rapport aux autres modèles.

Nous pouvons également remarquer que la précision n'est pas la meilleure métrique pour évaluer la performance des classificateurs car la classe "cacm" a le plus d'individus, confirmant ainsi l'hypothèse que nous soupçonnions précédemment.

Nous n'exécuterons pas le clustering spectral dans les expériences suivantes en raison de ses temps d'exécution élevés.

Espace Reduit

PCA avec 2 composantes

PCA avec 20 composantes

TSNE

UMAP

Autoencoder

Interpretations des resultats

Tableau des metriques

Les meilleurs methodes selon les 3 metriques

Le meilleur compromi c'est le CAH (Ward) avec UMAP de 20 composantes

Visualization des wordclouds du meilleur clustering

En visualisant les nuages de mots et en les comparant, nous pouvons voir que les classes prédites sont les suivantes :

GloVe

Espace Original

En visualisant l'espace en utilisant l'ACP à 2 dimensions, nous pouvons voir que les classes sont difficiles à séparer.

Les résultats ci-dessus montrent que les différentes méthodes de classification utilisées ne sont pas capables de séparer les classes dans leur espace d'origine, car la plupart d'entre elles sont proches de l'estimation aléatoire des étiquettes (ARI proche de 0 ou <0). Il est intéressant de noter que les modèles Kmeans, CAH(Ward) et MMG font mieux que les autres modèles, mais qu'il n'apporte toujours pas d'amélioration significative pour faire des interpretations.

Nous pouvons également remarquer que la précision n'est pas la meilleure métrique pour évaluer la performance des classificateurs car la classe "cacm" a le plus d'individus, confirmant ainsi l'hypothèse que nous soupçonnions précédemment.

Espace Reduit

PCA avec 2 composantes

PCA avec 20 composantes

TSNE

UMAP

Autoencoder

Interpretations des resultats

Tableau des metriques

Les meilleurs methodes selon les 3 metriques

Le meilleur model c'est le CAH (Ward) avec UMAP de 2 composantes ou TSNE

Visualization des wordclouds du meilleur clustering

En visualisant les nuages de mots et en les comparant, nous pouvons voir que les classes prédites sont les suivantes :

Meilleure representation

BBC

Nous pouvons voir que les classes sont plus ou moins de la même taille.

word2vec

Espace Original

En visualisant l'espace en utilisant l'ACP à 2 dimensions, nous pouvons voir que les classes sont moyennement difficle à séparer.

Les résultats ci-dessus montrent que les différentes méthodes de classification Spectral Clustering, HDBSCAN, CAH avec la moynne et le minimum ainsi que le maximum ne sont pas capables de séparer les classes dans leur espace d'origine, car la plupart d'entre elles sont proches de l'estimation aléatoire des étiquettes (ARI proche de 0 ou <0).

Il est intéressant de noter que les modèles Kmeans, MMG, et CAH(Ward) font mieux que les autres modèles, avec MMG qui prend le dessus sur Kmeans et CAH avec une NMI de 0.79, une ARI de 0.80 et une precision de 91%

Nous pouvons également remarquer que la précision n'est pas mal comme métrique pour évaluer la performance des classificateurs sur la dataset BBC.

Nous n'exécuterons pas le clustering spectral dans les tSNE en raison de ses temps d'exécution élevés.

Espace Reduit

PCA avec 2 composantes

PCA avec 20 composantes

TSNE

UMAP

Autoencoder

L'espace représenté par l'autoencodeur est moins bon que l'espace original en termes de séparabilité ce qui justifie les mauvaises performances de tous les modeles.

Interpretations des resultats

Tableau des metriques

Les meilleurs methodes selon les 3 metriques

Le meilleur model c'est Kmeans sur Umap de 20 composantes

Visualization des wordclouds du meilleur clustering

En visualisant les nuages de mots et en les comparant, nous pouvons voir que les classes prédites sont les suivantes :

GloVe

Espace Original

En visualisant l'espace en utilisant l'ACP à 2 dimensions, nous pouvons voir que les classes sont difficiles à séparer.

Les résultats ci-dessus montrent que les différentes méthodes de classification utilisées ne sont pas capables de séparer les classes dans leur espace d'origine, car la plupart d'entre elles sont proches de l'estimation aléatoire des étiquettes (ARI proche de 0 ou <0). Il est intéressant de noter que les modèles Kmeans, CAH(Ward) et MMG font mieux que les autres modèles et arrivent a classifier 85% a 89% des donnees.

Le meilleur model etant MMG avec 89% accuracy et 0.737 NMI

Espace Reduit

PCA avec 2 composantes

PCA avec 20 composantes

TSNE

UMAP

Autoencoder

Interpretations des resultats

Tableau des metriques

Les meilleurs methodes selon les 3 metriques

Le meilleur model c'est le Kmeans avec UMAP de 20 composantes

Visualization des wordclouds du meilleur clustering

En visualisant les nuages de mots et en les comparant, nous pouvons voir que les classes prédites sont les suivantes :

Meilleure representation

Comparaison entre les 2 datasets

Nous pouvons voir que le jeu de données bbc est plus facile à classer car ses calsses sont plus faciles à séparer et nous pouvons atteindre 95% de précision contre 77% pour classic4.